在前幾次,我們有用表格與圖像的數據來進行分析,那麼今天要來點不一樣的,換成如標題所說的「文本」做主題啦~~
預備備~開始!
打開Orange上的工作列表,點選「Options」中最下面的「Add-on(插件)」,這次我們要來下載「Text」這個插件,勾選後按下OK鍵並重新啟動,即可開始使用它囉。
開啟後,應該會看到右方列表多出一個「Text Mining」的插件出現。
接著,我們就可以將裡面的「Corpus(文集)」組件選出,並點選這次我們要使用「grimm-tales-selected」的文件,裡面富含有44個範例供我們操作。
想看文本內容者,可連接「Corpus Viewer」看看裡面內容,或也可以用關鍵字來查詢想要看到的文件。
再來,我們將連接「Word Cloud」組件,幫我們於雲端計算出各個單字或標點符號的出現頻率有多少,若是顯現越多次者則越大。
但我們其實不需要用到無意義的詞或標點符號,所以我們就要用「Preprocess Text(文字預處理)」來代處理它們。
將一個個單字標誌化外,還將標點符號過濾掉。
大家可在連上「Word Cloud」查看,是否有成功。
而我們從以下右方出現較大的文字來看,這個文本似乎在敘述一個與國王有相關連的故事。
不過我們依然可以發現到,還是有許多不需要的字詞在當中佔了很大的版面,這時我們可以依照你想刪掉的單字,打在記事本中,並將其命名好另存新檔。
把剛剛的文件輸入至「Preprocess Text」中Filtering(過濾)的Stopwords(停止單字,也就是禁止輸入的單字出現)。
當我們再次打開「Word Cloud」發現他們都不見了,那麼我們就大功告成啦~
今天就先帶著大家到這邊囉,明日也會是文本實作,若是對這個主題喜歡的你,可以繼續看下去呦~
參考文件:
Orange